#evaluación automática

IGenBench: Evaluando la Fiabilidad en Generación de Infografías

Descubre IGenBench, el primer benchmark que evalúa la fiabilidad de las infografías generadas por IA. Solo el 49% pasan la prueba.

2026-06-09 · 2 min

RadOT-Eval: Transporte de evidencia auditable para evaluar informes radiológicos

RadOT-Eval: framework auditable que usa transporte de evidencia estructurada para evaluar informes radiológicos, detectando errores clínicos con alta precisión.

2026-06-09 · 2 min

No apuestes, GAMBLe: Marco analítico para sistemas de investigación con IA

Descubre cómo el marco GAMBLe analiza sistemas de investigación con IA, revelando que combinaciones adecuadas mejoran rendimiento hasta 67% y eficiencia 39x.

2026-06-03 · 1 min

Sesgo de prototipicalidad revela puntos ciegos en métricas multimodales

Descubre cómo el sesgo de prototipicalidad engaña a las métricas de modelos texto-imagen. Conoce PROTOBIAS, el benchmark que detecta fallos semánticos.

2026-06-02 · 2 min

Mitigando el sesgo perceptual en LLMs multimodales como jueces

Descubre cómo un nuevo método de perturbación perceptual y modelado de recompensa corrige el sesgo en evaluaciones de LLMs multimodales. Más preciso y alineado con humanos.

2026-06-02 · 1 min

Comparativa de MLLMs en generación de código para webs interactivas

WebIGBench evalúa MLLMs en generar código de páginas web con interacciones complejas. Descubre los resultados y límites actuales. ¡Lee más!

2026-06-02 · 2 min

SortingHat: Redefiniendo la educación en SO con IA

Descubre cómo SortingHat, un asistente digital con IA, transforma la educación en sistemas operativos con aprendizaje personalizado y evaluación automática.

2026-06-02 · 2 min

TrustLDM: Evaluación de confiabilidad en modelos de difusión

TrustLDM revela vulnerabilidades en modelos de difusión de lenguaje. Seguridad, privacidad y equidad analizadas.

2026-06-02 · 2 min

SPM-Bench: Benchmark para LLMs en microscopía de sonda

SPM-Bench: Benchmark automatizado que evalúa LLMs en microscopía de sonda. Descubre su pipeline AGS y la métrica SIP-F1 que revela la personalidad de la IA.

2026-06-01 · 2 min

REAL: Aprendizaje por Refuerzo Consciente de Regresión para Juez LLM

REAL: nuevo método de RL con regresión que mejora la evaluación de LLMs. Aumenta correlación hasta +18. Ideal para desarrolladores de IA.

2026-06-01 · 2 min